#entrenamiento de transformers

StreamKL: divergencia KL rápida y eficiente para destilación de atención

StreamKL reduce el consumo de memoria de O(N²) a O(1) y acelera hasta 43x la destilación de atención en GPUs. Ideal para modelos con contexto largo.

2026-06-19 · 2 min

Descomponiendo los mecanismos de predicción para el recuerdo en contexto

Descubre cómo los transformers desarrollan dos mecanismos separados para recordar y predecir en contexto, revelando fases de aprendizaje sorprendentes.

2026-06-18 · 3 min